智能论文笔记

Artificial Intelligence Security Competition (AISC)

Yinpeng Dong , Peng Chen , Senyou Deng , Lianji L , Yi Sun , Hanyu Zhao , Jiaxing Li , Yunteng Tan , Xinyu Liu , Yangyi Dong

分类：人工智能 | 计算机视觉 | 机器学习

2022-12-07

The security of artificial intelligence (AI) is an important research area towards safe, reliable, and trustworthy AI systems. To accelerate the research on AI security, the Artificial Intelligence Security Competition (AISC) was organized by the Zhongguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, and RealAI as part of the Zhongguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en). The competition consists of three tracks, including Deepfake Security Competition, Autonomous Driving Security Competition, and Face Recognition Security Competition. This report will introduce the competition rules of these three tracks and the solutions of top-ranking teams in each track.

translated by 谷歌翻译

DevNet: Self-supervised Monocular Depth Learning via Density Volume Construction

Kaichen Zhou , Lanqing Hong , Changhao Chen , Hang Xu , Chaoqiang Ye , Qingyong Hu , Zhenguo Li

分类：计算机视觉

2022-09-14

从单眼图像中学习的自我监督深度学习通常依赖于暂时相邻图像帧之间的2D像素光度关系。但是，他们既没有完全利用3D点的几何对应关系，也没有有效地应对闭塞或照明不一致引起的光度扭曲中的歧义。为了解决这些问题，这项工作提出了密度量构建网络（DEVNET），这是一种新型的自我监管的单眼深度学习框架，可以考虑3D空间信息，并利用相邻的相机flustums中的更强的几何约束。我们的DEVNET不是直接从单个图像中回归像素值，而是将摄像头划分为多个平行的平面，并预测每个平面上的点闭塞概率密度。最终的深度图是通过沿相应射线集成密度来生成的。在训练过程中，引入了新颖的正则化策略和损失功能，以减轻光度歧义和过度拟合。如果没有明显放大的模型参数的大小或运行时间，DEVNET在Kitti-2015室外数据集和NYU-V2室内数据集上均优于几个代表性基准。特别是，在深度估计的任务中，在Kitti-2015和NYU-V2上，DEVNET均减少了4％的根平方。代码可在https://github.com/gitkaichenzhou/devnet上找到。

translated by 谷歌翻译

A Data-dependent Approach for High Dimensional (Robust) Wasserstein Alignment

Hu Ding , Wenjie Liu , Mingquan Ye

分类：计算机视觉 | 机器学习

2022-09-07

许多实际问题可以作为两种几何模式之间的对齐方式提出。以前，大量研究集中于计算机视觉领域中2D或3D模式的对齐。最近，高维度的对齐问题在实践中发现了一些新的应用。但是，该研究在算法方面仍然相当有限。据我们所知，大多数现有的方法只是对2D和3D案例的简单扩展，并且经常遭受诸如高计算复杂性之类的问题。在本文中，我们提出了一个有效的框架来压缩高维几何模式。任何现有的比对方法都可以应用于压缩的几何模式，并且可以大大降低时间复杂性。我们的想法的灵感来自观察到高维数据通常具有较低的内在维度。我们的框架是一种“数据依赖性”方法，其复杂性取决于输入数据的内在维度。我们的实验结果表明，与原始模式的结果相比，在压缩模式上运行对齐算法可以达到相似的质量，但是运行时间（包括压缩的时间成本）大大降低。

translated by 谷歌翻译

Boundary-Aware Network for Kidney Parsing

Shishuai Hu , Yiwen Ye , Zehui Liao , Yong Xia

分类：计算机视觉

2022-08-29

肾脏结构细分是计算机辅助诊断基于手术的肾癌的至关重要但具有挑战性的任务。尽管许多深度学习模型在许多医学图像分割任务中取得了显着的成功，但由于肾脏肿瘤的尺寸可变，肾脏肿瘤及其周围环境之间的歧义范围可变，因此对计算机层析造影血管造影（CTA）图像的肾脏结构的准确分割仍然具有挑战性。。在本文中，我们在CTA扫描中提出了一个边界感知网络（BA-NET），以分段肾脏，肾脏肿瘤，动脉和静脉。该模型包含共享编码器，边界解码器和分割解码器。两个解码器都采用了多尺度的深度监督策略，这可以减轻肿瘤大小可变的问题。边界解码器在每个量表上产生的边界概率图被用作提高分割特征图的注意。我们在肾脏解析（KIPA）挑战数据集上评估了BA-NET，并通过使用4倍的交叉验证来实现CTA扫描的肾脏结构细分的平均骰子得分为89.65 $ \％$。结果证明了BA-NET的有效性。

translated by 谷歌翻译

Conv-Adapter: Exploring Parameter Efficient Transfer Learning for ConvNets

Hao Chen , Ran Tao , Han Zhang , Yidong Wang , Wei Ye , Jindong Wang , Guosheng Hu , Marios Savvides

分类：计算机视觉 | 人工智能

2022-08-15

尽管参数有效调整（PET）方法在自然语言处理（NLP）任务上显示出巨大的潜力，但其有效性仍然对计算机视觉（CV）任务的大规模转向进行了研究。本文提出了Conv-Adapter，这是一种专为CONCNET设计的PET模块。 Conv-Adapter具有轻巧的，可转让的域和架构，不合时宜，并且在不同的任务上具有广义性能。当转移下游任务时，Conv-Adapter将特定于任务的特征调制到主链的中间表示，同时保持预先训练的参数冻结。通过仅引入少量可学习的参数，例如，仅3.5％的RESNET50的完整微调参数，Conv-Adapter优于先前的宠物基线方法，并实现可比性或超过23个分类任务的全面调查的性能。它还在几乎没有分类的情况下表现出卓越的性能，平均利润率为3.39％。除分类外，Conv-Adapter可以推广到检测和细分任务，其参数降低了50％以上，但性能与传统的完整微调相当。

translated by 谷歌翻译

Gaia: Graph Neural Network with Temporal Shift aware Attention for Gross Merchandise Value Forecast in E-commerce

Borui Ye , Shuo Yang , Binbin Hu , Zhiqiang Zhang , Youqiang He , Kai Huang , Jun Zhou , Yanming Fang

分类：机器学习

2022-07-27

电子商务在通过互联网增强商人的能力方面已经大有帮助。为了有效地存储商品并正确安排营销资源，对他们来说，进行准确的总商品价值（GMV）预测非常重要。但是，通过数字化数据的缺乏进行准确的预测是不算平的。在本文中，我们提出了一个解决方案，以更好地预测Apay应用程序内的GMV。得益于Graph Neural网络（GNN），它具有很好的关联不同实体以丰富信息的能力，我们提出了Gaia，Gaia是一个图形神经网络（GNN）模型，具有时间移动意识注意。Gaia利用相关的电子销售商的销售信息，并根据时间依赖性学习邻居相关性。通过测试Apleay的真实数据集并与其他基线进行比较，Gaia表现出最佳性能。盖亚（Gaia）部署在模拟的在线环境中，与基线相比，这也取得了很大的进步。

translated by 谷歌翻译

STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic Cross-Modal Understanding

Zihang Lin , Chaolei Tan , Jian-Fang Hu , Zhi Jin , Tiancai Ye , Wei-Shi Zheng

分类：计算机视觉

2022-07-06

在这份技术报告中，我们将解决方案介绍给以人为中心的时空视频接地任务。我们提出了一个名为stvgformer的简洁有效框架，该框架将时空视觉语言依赖性与静态分支和动态分支建模。静态分支在单个帧中执行交叉模式的理解，并根据框架内视觉提示（如对象出现）学会在空间上定位目标对象。动态分支在多个帧上执行交叉模式理解。它学会了根据动作（如动作）的动态视觉提示来预测目标力矩的开始和结束时间。静态分支和动态分支均设计为跨模式变压器。我们进一步设计了一种新型的静态动力相互作用块，以使静态和动态分支相互传递有用和互补信息，这被证明可以有效地改善对硬病例的预测。我们提出的方法获得了39.6％的VIOU，并在第四人中挑战中获得了HC-STVG曲目的第一名。

translated by 谷歌翻译

Fine-grained Correlation Loss for Regression

Chaoyu Chen , Xin Yang , Ruobing Huang , Xindi Hu , Yankai Huang , Xiduo Lu , Xinrui Zhou , Mingyuan Luo , Yinyu Ye , Xue Shuang

分类：计算机视觉

2022-07-01

回归学习是经典的，是医学图像分析的基础。它为许多关键应用程序提供了连续的映射，例如属性估计，对象检测，分割和非刚性注册。但是，先前的研究主要以案例标准（如均方误差）为优化目标。他们忽略了非常重要的人口相关标准，这正是许多任务中的最终评估指标。在这项工作中，我们建议通过有关直接优化细粒相关损失的新型研究来重新审视经典回归任务。我们主要探索两个互补相关索引作为可学习的损失：Pearson线性相关（PLC）和Spearman等级相关性（SRC）。本文的贡献是两个折叠。首先，对于全球层面的PLC，我们提出了一项策略，以使其对异常值进行强大的态度并规范关键分布因素。这些努力显着稳定学习并扩大了PLC的功效。其次，对于本地级别的SRC，我们提出了一种粗到精细的方案，以减轻样品之间确切排名顺序的学习。具体而言，我们将样本排名的学习转换为样本之间相似关系的学习。我们在两个典型的超声图像回归任务上广泛验证了我们的方法，包括图像质量评估和生物措施测量。实验证明，通过直接优化相关性的细粒度指导，回归性能得到显着提高。我们提出的相关性损失是一般的，可以扩展到更重要的应用程序。

translated by 谷歌翻译

Exploring linguistic feature and model combination for speech recognition based automatic AD detection

Yi Wang , Tianzi Wang , Zi Ye , Lingwei Meng , Shoukang Hu , Xixin Wu , Xunying Liu , Helen Meng

分类：机器学习

2022-06-28

阿尔茨海默氏病（AD）的早期诊断对于促进预防性护理和延迟进展至关重要。基于语音的自动广告筛选系统为其他临床筛查技术提供了一种非侵入性，更可扩展的替代方案。此类专业数据的稀缺性会导致模型选择和特征学习的不确定性。为此，本文调查了功能和模型组合方法的使用，以改善Bert和Roberta预先训练的文本编码有限数据的域微调的鲁棒性，然后在将结果的嵌入功能馈入后端分类器集合之前通过多数投票制定最终的广告检测决定。在ADRESS20挑战数据集上进行的实验表明，使用模型和功能组合在系统开发中获得了一致的性能改进。使用手册和ASR语音转录本在ADRESS20测试集上分别获得了91.67％和93.75％的最先进的AD检测精度，该准确的准确性是由48位老年人组成的。

translated by 谷歌翻译

Toward Clinically Assisted Colorectal Polyp Recognition via Structured Cross-modal Representation Consistency

Weijie Ma , Ye Zhu , Ruimao Zhang , Jie Yang , Yiwen Hu , Zhen Li , Li Xiang

分类：计算机视觉

2022-06-23

大肠息肉分类是一项关键的临床检查。为了提高分类精度，大多数计算机辅助诊断算法通过采用窄带成像（NBI）识别结直肠息肉。但是，NBI通常在实际诊所场景中缺少利用率，因为该特定图像的获取需要在使用白光（WL）图像检测到息肉时手动切换光模式。为了避免上述情况，我们提出了一种新的方法，可以通过进行结构化的跨模式表示一致性直接实现准确的白光结肠镜图像分类。实际上，一对多模式图像，即NBI和WL，被送入共享变压器中以提取分层特征表示。然后，采用了一种新颖的设计空间注意模块（SAM）来计算从多层次的类令牌和贴片令牌％的相似性，以获得特定模态图像。通过将配对NBI和WL图像的类令牌和空间注意图对齐，变压器可以使上述两种模式保持全局和局部表示一致性。广泛的实验结果说明了所提出的方法的表现优于最近的研究，从而通过单个变压器实现了多模式预测，同时仅在使用WL图像时大大提高了分类精度。

translated by 谷歌翻译